header2.png

Hands-On

Hands-On ini digunakan pada kegiatan Microcredential Associate Data Scientist 2021

Pertemuan 5

Pertemuan 5 (lima) pada Microcredential Associate Data Scientist 2021 menyampaikan materi mengenai Mengumpulkan Data, Menelaah Data dengan metode Statistik

Pengambilan Data dari API Kaggle


Salah satu portal yang menyediakan dataset untuk project Data Science adalah Kaggle (https://www.kaggle.com/). Pada latihan ini, silakan peserta mengunduh dataset mengenai bunga Iris dengan menggunakan kata kunci: "iris species" yang disediakan oleh UCI Machine Learning (UCIML)

1. Install Modul kaggle:

In [ ]:
# Install modul kaggle secara inline (di dalam notebook)
!pip install kaggle
In [ ]:
# Install modul kaggle secara eksternal melalui anaconda prompt:

image.png

2. Create Token API kaggle:

image.png

  1. Login Kaggle.com
  2. Kemudian pada menu Profile --> Account
  3. Klik Create New Api Token
  4. Maka akan terdownload file kaggle.json

image.png

Kaggle API secara default mengasumsikan bahwa file kaggle.json tersebut berada di dalam folder:

  • ~/.kaggle/ (Linux/Mac)
  • C:\Users\.kaggle\ (Windows)

Jika folder tersebut belum ada:

  1. Buat folder di direktori C:\Users\.kaggle\
  2. letakkan file kaggle.json kedalam folder tersebut

3. Download Dataset dari Kaggle:

image.png

Dokumentasi Kaggle Commands selengkapnya Disini
In [ ]:
# Mencari dataset yang tersedia di kaggle --> pilih data provider dari UCIML
!kaggle datasets list -s Iris
In [ ]:
# Download dan ekstrak dataset, secara default akan berada dalam satu direktori dengan notebook ini
!kaggle datasets download uciml/iris --unzip 

Atau bisa juga menggunakan link dari kaggle

Latihan (1)

Silahkan Download sebuah dataset menggunakan API Kaggle

In [ ]:
#Latihan (1)
#Langkah nya seperti contoh diatas
!kaggle datasets list -s Iris

# Download dan ekstrak dataset, secara default akan berada dalam satu direktori dengan notebook ini
!kaggle datasets download uciml/iris --unzip 

PENGGUNAAN LIBRARY PANDAS dan NUMPY

Pada materi ini, peserta sudah mendapatkan pemahaman mengenai data dan dataset. Penggunaan library pada Python memberikan kemudahan dalam proses data understanding. Beberapa library yang digunakan adalah library Pandas dan Numpy.

Latihan (2)

Lakukan import Library Pandas dan Library Numpy

In [ ]:
#Latihan(2)
#Import Library Pandas

import pandas as pd

#Import Library Numpy

import numpy as np

DATAFRAME

DataFrame adalah struktur data 2 dimensi yang berbentuk tabular (mempunyai baris dan kolom). Hampir semua data tidak hanya memiliki 1 kolom tetapi lebih dari 1 kolom, sehingga lebih cocok menggunakan pandas DataFrame untuk mengolahnya.

Penggunaan dataframe pada Python dengan menggunakan syntaks: df.

Latihan (3)

Panggil file (load dataset) dengan format .csv untuk dataset mengenai bunga Iris yang sudah peserta unduh dari Kaggle, dan akan disimpan di dalam dataframe df. Lalu tampilkan 5 baris awal dataset dengan function head()

In [ ]:
#latihan(3)
#Panggil file (load file bernama Iris.csv) dan simpan dalam dataframe Lalu tampilkan 5 baris awal dataset dengan function head()

iris = pd.read_csv("Iris.csv")
iris.head()

Telaah Data

Pada telaah data, dapat dilakukan untuk mengetahui:

  • tipe data dari setiap kolom
  • deskripsi statistik data

Latihan (4)

Tampilkan tipe data dari kolom yang ada pada dataset

In [ ]:
#latihan(4)
#Tampilkan tipe data dari kolom yang ada pada dataset

print(iris.dtypes)

Latihan (5)

Apakah tipe Data dari kolom berikut ini: (silakan diisi pada cell di bawah ini)

In [ ]:
#Latihan (5)
#Tipe Data dari kolom yang ada di dataset

#Kolom  "Id" memiliki tipe data =  integer
#Kolom "SepalLengthCm" memiliki tipe data =  float
#Kolom "Species" memiliki tipe data =  object

Latihan (6)

Hitunglah ukuran (jumlah baris dan kolom) dari dataset. Dengan menggunakan method function

In [ ]:
#Latihan (6)
#Hitung ukuran (jumlah baris dan kolom) dari dataset

iris_noid = iris.iloc[:,2:]
iris_noid

Latihan (7)

Berapakah jumlah baris, dan jumlah kolom pada dataset? (silakan diisi pada cell di bawah ini)

In [ ]:
#Latihan (7)

#Jumlah Baris pada dataset adalah =  150 baris

#Jumlah kolom pada dataset adalah =  4 kolom

Latihan (8)

Tampilkan data yang hanya berisi kolom "Id" dan kolom "Species" dalam bentuk dataframe.

In [ ]:
#Latihan (8)
#Tampilkan data untuk kolom "Id" dan kolom "Species" dalam bentuk dataframe

data = {'Id':iris["Id"], 'Species':iris["Species"]}
df = pd.DataFrame(data=data)
df

Latihan (9)

Tampilkan data dengan dataframe, dan data yang ditampilkan adalah data pada baris dengan indeks 0 (nol) sampai dengan indeks 9 (sembilan)

In [ ]:
#Latihan (9)
#Tampilkan data dengan dataframe, dan data yang ditampilkan adalah baris dengan indeks 0 (nol) sampai dengan indeks 9 (sembilan)

df = pd.DataFrame(data=iris[0:10])
df

Latihan (10)

Tampilkan data hanya kolom "Id" dan kolom "Species" dengan dataframe, dan yang ditampilkan adalah data pada baris dengan indeks 11 (sebelas) sampai dengan indeks 15 (limabelas)

In [ ]:
#Latihan (10)
#Tampilkan data hanya kolom "Id" dan kolom "Species", pada baris dengan indeks 0 (nol) sampai dengan indeks 9 (sembilan)

df = pd.DataFrame(data=iris[0:10], columns=["Id","Species"])
df

Latihan (11)

Pada DataFrame dapat menampilkan beberapa baris pertama/terakhir dari dataset yang di load. Gunakan Method head() dan tail().

Latihan: Tampilkan data pada 8 (delapan) baris pertama dari dataset, dengan dataframe.

In [ ]:
#Latihan (11)
#Tampilkan data pada 8 (delapan) baris pertama dari dataset, dengan dataframe

df = pd.DataFrame(data=iris).head(8)
df

Latihan (12)

Tampilkan data pada 3 (tiga) baris terakhir dari dataset, dengan dataframe.

In [ ]:
#Latihan (12)
#Tampilkan data pada 3 (tiga) baris terakhir dari dataset, dengan dataframe

df = pd.DataFrame(data=iris).tail(3)
df

Deskripsi Statistik Data

DataFrame method describe() menampilkan statistik dasar setiap kolom data yang bertipe numerik, mencakup banyaknya data (count), rerata aritmetik (mean), simpangan baku (std), nilai terkecil (min), kuartil pertama (25%), kuartil kedua/median (50%), kuartil ketiga (75%), dan nilai terbesar (max).

Latihan (13)

Hitung korelasi dari dataset. Dengan menggunakan method function

In [ ]:
#Latihan (13)
#Hitung korelasi dataset

iris.describe()

Latihan (14)

Berdasarkan pada perhitungan korelasi di Latihan (11), apakah yang dapat Bapak/Ibu simpulkan sementara? Silakan tuliskan simpulan sementara Bapak/Ibu pada cell di bawah ini.

In [ ]:
#latihan (14)
#Simpulan Sementara Hasil Korelasi di latihan (13)

# Pada pelajaran ini saya memahami bahwa method DataFrame dapat digunakan untuk menganalisa data dalam bentuk tabel
# serta dapat menghitung kolerasinya

Latihan (15)

Hitung korelasi untuk kolom berikut ini: PetalLengthCm, PetalWidthCm

In [ ]:
#Latihan (15)
#Hitung korelasi dataset untuk kolom PetalLengthCm, PetalWidthCm

df = pd.DataFrame({'PetalLengthCm':iris["PetalLengthCm"],'PetalWidthCm':iris["PetalWidthCm"]})
df.describe()

Latihan (16)

Method "describe" secara otomatis melakukan komputasi statistik untuk semua continous variable. Secara default "describe" melakukan ignore terhadap variabel bertype objek.

Komputasi statistik yang dilakukan terdiri dari: count, mean, std, min, max, 25%, 75%, max.

Latihan: Gunakan method describe pada dataset yang sudah di load untuk semua continous variabel. (Dataset Iris.csv)

In [ ]:
#Latihan (16)
# Penggunaan Metode describe untuk komputasi statistik

iris.describe()

Latihan (17)

Gunakan method describe pada dataset yang sudah di load untuk data bertype objek. (Dataset Iris.csv)

In [ ]:
#Latihan (17)
#Gunakan method describe pada dataset yang sudah di load untuk data bertype objek

iris.describe()

Latihan 18

Gunakan method describe pada dataset yang sudah di load untuk semua type data (continous variabel dan type object).

In [ ]:
#Latihan (18)
#Gunakan method describe pada dataset yang sudah di load untuk semua type data

iris.describe(include='all')

Latihan (19)

Hitunglah nilai mean dari dataset.

In [ ]:
#Latihan (19)
#Hitung nilai Mean dari dataset

iris.mean()

Latihan (20)

Hitung nilai mean dari dataset untuk kolom PetalLengthCm.

In [ ]:
#Latihan (20)
#Hitung nilai Mean untuk kolom PetalLengthCm

iris["PetalLengthCm"].mean()

Latihan (21)

Carilah nilai minimal dari dataset untuk kolom SepalWidthCm.

In [ ]:
#Latihan (21)
#Cari nilai minimal untuk kolom SepalWidthCm

iris["SepalWidthCm"].min()

Method Groupby

Method groupby memungkinkan analisis dilakukan secara per kelompok nilai atribut tertentu.

Latihan (22)

Hitunglah nilai mean dari dataset untuk kolom SepalLengthCm per Species dengan menggunakan metode groupby.

In [ ]:
#Latihan (22)
#Hitung nilai mean dari dataset untuk SepalLengthCm per Species dengan metode groupby

iris.groupby("Species")["SepalLengthCm"].mean()

Method Value Count

value_counts() menghasilkan frekuensi setiap nilai unik di dalam kolom, dan yang tertinggi count-nya adalah merupakan modus pada kolom tersebut.

Latihan (23)

Hitunglah frekuensi pada kolom 'Species' dengan menggunakan metode value_counts().

In [ ]:
#Latihan (23)
#Hitung frekuensi pada kolom 'Species' dengan menggunakan metode value_counts()

iris["Species"].value_counts()

Latihan (24)

Tampilkan perhitungan frekuensi pada kolom 'Species' dengan menggunakan metode value_counts() dalam bentuk dataframe.

In [ ]:
#Latihan (24)
#Perhitungan frekuensi pada kolom 'Species' dengan menggunakan metode value_counts() dalam bentuk dataframe

df = pd.DataFrame(data=iris['Species'].value_counts())
df

Latihan (25)

Hitunglah frekuensi pada kolom 'PetalLenghCm' dengan menggunakan metode value_counts() dan dalam bentuk dataframe.

In [ ]:
#Latihan (25)
# Hitung frekuensi pada kolom 'PetalLenghCm' dengan menggunakan metode value_counts()

pd.DataFrame(data=iris['PetalLengthCm'].value_counts())
In [ ]: